查看原文
其他

Omni-Path逆袭,主导超以太网?

常华Andy Andy730
2025-01-01

在迅速扩张的AI市场及其与传统HPC系统在运行模拟与模型方面的深度融合背景下,诸多悬而未决的问题依旧存在。然而,一个广泛获得支持的观点是,以太网最终将实现飞跃式发展,以至于InfiniBand技术可能变得不再不可或缺。

这正是超以太网联盟(Ultra Ethernet Consortium,简称UEC)成立的初衷,该组织成立近一年,其核心目标之一便是打破InfiniBand在AI训练与HPC模拟领域低延迟网络连接方面的垄断地位。UEC还致力于将这种优化后的以太网技术扩展至一个包含百万级端点的单一、相对扁平的网络架构中,减少对网络层级的依赖,这一点与InfiniBand及其他专有互联技术形成鲜明对比。他们追求的解决方案需具备高带宽、低延迟及巨大规模的特点,同时避免像Nvidia的InfiniBand那样由单一厂商主导的局面。

InfiniBand网络,尤其是200Gb/s和400Gb/s版本的高昂定价,已充分证明这一点。在HPC及超大规模/云市场中,网络成本往往占据集群总成本的20%以上,而客户通常期望在互联技术上的投入不超过总成本的10%。

UEC的基本构想是彻底革新以太网协议栈,赋予其与InfiniBand相媲美的端到端网络结构和遥测功能,以优化拥塞控制和自适应路由。这一理念将通过交换机和网络适配器硬件,以及运行在这些设备上的网络软件来实现。UEC还计划引入灵活的数据包排序机制(常被称为数据包喷射),以进一步减少拥塞,并开发一种新型RDMA技术,该技术将融合InfiniBand的RDMA实现与以太网的RoCE优势。所有这些努力都将遵循标准化路径,确保各厂商在保持兼容性的同时,能够展现各自的技术特色。

UEC的创始成员阵容强大,包括AMD、Arista Networks、Broadcom、Cisco Systems、Eviden(Atos)、HPE、Intel(Intel)、Meta Platforms、Microsoft和Oracle等,其工作与知识产权由Linux基金会负责管理。

去年11月,当超以太网联盟(UEC)首次开放会员资格时,又有27家公司加入,其中不乏一些业界知名企业。了解这些新成员的构成至关重要,以下是部分已确认加入的公司名单:阿里巴巴、Alphawave Semi、百度、字节跳动、Cadence、Cornelis Networks、Dell、DriveNets、DreamBig、Enfabrica、Fujitsu、华为、IBM、Infraeo、Juniper Networks、Keysight、Marvell、NeuReality、新华三、Nokia、Samsung、Salience Labs、Spirent Communications、Synopsys、腾讯、VNET以及XSight Labs。

至今年三月,又有45家新公司加入了由最初十家公司组成的指导委员会,使得参与UEC的公司总数达到了55家。根据现有标识数量统计,UEC目前至少有63名成员,其中包括但不限于以下已确认的名单:Accellink、Asterfusion、Centec、Ciena、Credo、Edge-Core Networks、Fathom Radiant、Graphcore、Grovf、日本互联网计划、Kalray、劳伦斯利弗莫尔国家实验室(LLNL)、联想、MangoBoost、MemVerge、Molex、Preferred Networks、Qumulo、锐捷网络、桑迪亚国家实验室(SNL)、Scala Computing、Stelia、Supermicro、云脉芯联(YunSilicon)、篆芯半导体(Zenosic)以及中兴通讯。值得注意的是,其中八家公司是在三月之后才加入的,但具体是哪八家尚不清楚。

此外,尽管Google和AWS目前并非UEC成员,但考虑到他们可能从InfiniBand的替代方案中获益,因此有理由推测他们可能正在以某种形式参与其中。同样,Nvidia也可能在低调参与,因为其Spectrum以太网技术需要达到UEC的标准。我们已向Nvidia求证,并将根据他们的回复更新相关信息。

Nvidia发表声明称:“Nvidia是UEC的成员,因为我们秉持着支持任何可能为客户带来益处的网络规范的策略。展望未来,我们有意推出一个符合UEC标准的以太网版本,与Spectrum-X及其他潜在规范并驾齐驱。”

这证实了我们先前的推测,Nvidia正稳步前行,在其领域内广撒网,全面布局。

核心在于,众多行业巨头均致力于以太网的优化与升级,目前已有715名技术人员携手共进,致力于这一目标的实现。UEC 1.0规范预计将于今年第三季度正式问世。

Cornelis Networks的联合创始人兼CEO Phil Murphy正是这支精英团队中的一员,他不仅积极参与UEC规范的制定,还致力于推动Omni-Path互连技术的应用与发展。

没错,你听到的都是真的!

Murphy在InfiniBand领域的造诣或许与Nvidia不相上下。他曾是SilverStorm Technologies的联合创始人兼副总裁,该公司在2006年被QLogic收购,其InfiniBand产品组合随后成为QLogic的一部分,直至2012年1月,英特5C14斥资1.25亿美元从QLogic手中购得了TrueScale InfiniBand交换机和适配器业务。对于Intel及当前的Cornelis Networks而言,另一重要里程碑是Intel在2012年4月以1.4亿美元从Cray手中收购了“Gemini”和“Aries”互连技术,旨在打造更为卓越的InfiniBand产品。而到了2020年9月,Murphy在Cornelis Networks从Intel手中收购Omni-Path业务的过程中扮演了关键角色,此次交易涵盖了相关知识产权、现有产品以及客户支持合同。

美国众多HPC中心,特别是桑迪亚国家实验室、劳伦斯利弗莫尔国家实验室以及德克萨斯大学的德州高级计算中心,都渴望寻求InfiniBand或HPE/Cray的Slingshot等专有互连技术的替代品,并持续资助Omni-Path的重新研发工作。如今,Cornelis Networks正计划将其Omni-Path交换机和适配器的未来发展规划与UEC的蓝图紧密结合。

回溯至去年8月,即UEC成立仅一个月之际,我们曾与Cornelis Networks深入探讨了其Omni-Path的发展路径。当时,该公司尚未来得及充分吸收这些新兴动态。以下是对那次讨论中提到的路线图的一个简要回顾:

最近,在与Murphy的交流中,我们深入探讨了AI训练的本质及其执行者的问题。Murphy坚信,只有超大规模数据中心和云服务商能够承担得起训练成本,而其他用户则将通过获取模型授权,在本地或云端运行。除此之外,我们还提出了一个有趣的问题:鉴于RoCE是以太网试图模拟InfiniBand的成功案例,Omni-Path是否也有潜力通过类似的方式“进化”为UEC呢?

“这正是我们的目标,”Murphy笑着回答。“通过Omni-Path Express(简称OPX),我们将为Omni-Path赋予以太网功能。超大规模数据中心和云服务商期望UEC能够支持多厂商设备和实现互操作性,因此我们会严格遵循相关规范。而实际上,我们已经掌握了这些关键技术——包括基于信用的流量控制、拥塞控制和动态自适应路由——它们都是UEC规范的重要组成部分。”

对于Cornelis Networks而言,能够在Omni-Path硬件上支持Ultra Ethernet协议,很大程度上得益于其几年前作出的决策:采用Open Fabrics Interfaces工作组的libfabric库,以替代原先QLogic和Intel产品中使用的InfiniBand Verbs和QLogic PSM软件层。值得注意的是,UEC也将libfabric作为其北向API的标准化选择。这意味着,Cornelis Networks让Omni-Path兼容UEC规范中的现代以太网技术,并非难事。

回顾这段历史,有助于我们更好地理解当前的局面。如我们所知,InfiniBand最初旨在替代PCI-Express、光纤通道甚至以太网,构建一个适用于所有设备、PC和服务器的通用、融合的网络架构。QLogic的TrueScale版本InfiniBand采用了性能扩展消息传递(Performance Scale Messaging,简称PSM)技术,QLogic坚信这一技术比传统的InfiniBand Verbs方法更具优势,能够实现更好的扩展性。然而,随着AI和HPC系统的快速发展,其扩展需求已远远超出了二十多年前的设计初衷。因此,Cornelis Networks决定重新构建基于Linux操作系统的libfabric驱动程序的新软件栈,以OPX提供程序取代QLogic TrueScale和Intel Omni-Path栈中的PSM提供程序,这一转变得到了Open Fabrics Interfaces工作组的支持。

以下是InfiniBand和Omni-Path架构在当前100 Gb/s Omni-Path Express交换机中的发展演变:

下面这幅图是UEC栈:

鉴于超以太网(UEC)与Omni-Path均通过libfabric API进行交互,只要Cornelis Networks在其libfabric驱动程序中持续与UEC同步更新扩展,那么使Omni-Path在适配器层面实现现代以太网通信,并在交换机中恢复为本地传输应当相对简便。

值得一提的是,这与Cray在2010年为其XT系列大规模并行超级计算机推出的“SeaStar”互连中的集群兼容模式(Cluster Compatibility Mode,简称CCM)有异曲同工之妙。在Linux上运行、原本为以太网编写的应用程序,通过CCM驱动程序进行通信时,实际上并未察觉到自己并未直接通过以太网进行通信。基于类似原因,Cray还为CCM增加了对Open Fabrics InfiniBand驱动程序的支持。

今年,Cornelis Networks发布了400 Gb/s的Omni-Path Express CN5000交换机和适配器,全面摒弃了OFA Verbs和QLogic PSM2支持,转而专注于OFI libfabric提供程序层。据Murphy透露,这款产品已定型,并不支持UEC规范。然而,对于计划于2026年面世的800 Gb/s Omni-Path CN6000交换机和适配器,情况将变得尤为引人关注。

“我们计划在2026年初推出800 Gb/s产品,尽管可能尚无法完全与超以太网兼容,但会融入部分相关功能,”Murphy透露。“对于大多数超大规模数据中心和云服务构建者而言,他们更关注的是通往超以太网的路径。不过,到了2026年底至2027年初,你们将会看到真正的超以太网产品问世。”

令人诧异的是,Cornelis Networks竟也将参与供应这些产品。对此,我们不禁感叹:Intel当初若未出售Omni-Path,或许能更好地把握这一趋势。

-----

Source:Timothy Prickett Morgan; WHAT IF OMNI-PATH MORPHS INTO THE BEST ULTRA ETHERNET? June 26, 2024


--【本文完】---

近期受欢迎的文章:

  1. 【论文】利用RDMA技术提升Azure存储能力

  2. Databricks Data+AI峰会主题发言(Day1 全文)

  3. 最新动态:SSD规格尺寸

  4. VMware内存分层技术:从NVMe分层到CXL加速器

  5. NVIDIA首席科学家对话李飞飞:AI的高速发展与对人类影响



更多交流,可添加本人微信

(请附姓名/单位/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存